本文提出了一种通过视觉解释3D卷积神经网络(CNN)的决策过程的方法,并具有闭塞灵敏度分析的时间扩展。这里的关键思想是在输入3D时间空间数据空间中通过3D掩码遮住特定的数据,然后测量输出评分中的变更程度。产生较大变化程度的遮挡体积数据被认为是分类的更关键元素。但是,虽然通常使用遮挡敏感性分析来分析单个图像分类,但将此想法应用于视频分类并不是那么简单,因为简单的固定核心无法处理动作。为此,我们将3D遮挡掩模的形状调整为目标对象的复杂运动。通过考虑从输入视频数据中提取的光流的时间连续性和空间共存在,我们的灵活面膜适应性进行了。我们进一步建议通过使用分数的一阶部分导数相对于输入图像来降低其计算成本,以近似我们的方法。我们通过与删除/插入度量的常规方法和UCF-101上的指向度量来证明我们方法的有效性。该代码可在以下网址获得:https://github.com/uchiyama33/aosa。
translated by 谷歌翻译